人类通过各种感官方式逮捕了世界,但语言是他们主要的交流渠道。机器学习系统需要利用相同的多模式丰富性,以使人类以自然语言知情。对于专门从事视觉密集信息的系统,例如对话,建议和搜索引擎,尤其如此。为此,我们训练一个视觉问题回答(VQA)系统,以回答有关时尚拍摄图像中服装的复杂自然语言问题。成功培训我们的VQA模型的关键是使用不同模板从207,000张图像的项目属性中自动创建一个视觉提问数据集。样本生成采用了一种策略,该策略考虑了提问的困难,以强调具有挑战性的概念。与使用几个数据集预处理视觉问题答案模型的最新趋势相反,我们专注于保持数据集的固定,同时从头开始训练各种模型以隔离模型体系结构的改进。我们看到,使用相同的变压器编码问题并解码答案,就像在语言模型中一样,可以达到最大的准确性,表明视觉语言模型(VLMS)为我们的数据集提供了最佳的视觉问题答案系统。最佳模型的准确性也超过了人类专家的水平,即使回答不限于模板格式的人类生成的问题。我们生成大规模多模式域特异性数据集的方法为训练能够以自然语言进行交流的专业模型提供了途径。这样的域 - 专家模型的培训,例如我们的时尚VLM模型,不能仅依靠从网络收集的大规模通用数据集。
translated by 谷歌翻译